Identificación del mejor brazo en bandidos lineales generalizados mediante retroalimentación híbrida
Identificación del mejor brazo en bandidos lineales generalizados con retroalimentación híbrida. Métodos eficientes para problemas de selección de acciones en aprendizaje automático.